>>» EXTENSIBLE MARRUP LANGUAGE 


PG WORLD pero 


ML es un metalenguaje desarrollado con la idea de aprovechar las ventajas del HTML, 
pero que, a su vez, corrija las limitaciones de este. 











í A 

. 2] CADocu ts and Settings WAll U Docu ts Articulos El ComercioWArticulo X) al 8 
» Código en HTML 5 Ile gate Fontes Toe ED e] » Código en XIMIL 
[0-90 100 [e from O DS É 


con la etiqueta <documento></p> 
<p>A continuacion colocamos un elemento sin contenido</p> 
<imagen fichero="imagen. gif” > 
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>>» HTML, ML, VERSUS SGML 


» XML no es un HTML++. Tanto el XML como el HTML tienen su base en el 
SGML. El SGML (Standard Generalized Markup Language, ISO 8879) es el es- 
tándar internacional para la definición de la estructura y el contenido de dife- 
rentes tipos de documentos electrónicos. Es decir, es un metalenguaje que 
permite definir lenguajes, que a su vez, permiten definir la estructura y el con- 
tenido los documentos. La definición de la estructura y el contenido de un 
tipo de documento se realiza a través de una DTD. En ella se definen los ele- 
mentos que conformarán ese tipo de documento, y como tienen que estar 
organizados para que sea correcto. 


» Por ejemplo, en una DTD se define cómo deben ser los documentos HTML. 
Por tanto, el HTML no es más que un tipo de documento SGML que se utili- 
za en la web; y esto es importante, ya que aquí radica su principal diferencia 
con el XML. 


» El XML no es ningún tipo de documento SGML, sino que es una versión 
abreviada de SGML optimizada para su utilización en Internet. Esto significa 


>» » PREPARÁNDOMOS PARA TRABAJAR 






















» Un editor de textos, con el cual escribir los documentos XML y DTD. 

» Un procesador o parser XML. 

Más adelante, a medida que se vaya profundizando en el XML y tecnologías 
asociadas, irán haciendo falta nuevas aplicaciones que se describirán en su 
momento. 


» Editores XML: Un editor XML es una aplicación que ofrece facilidades 
para crear y editar documentos XML. Para empezar, es recomendable que 
se utilice un simple editor de texto y, una vez que se esté familiarizado con la 
sintaxis y características del XML, se podrá pasar a editores que nos hagan la 
vida un poco más fácil (¡o más difícil!). Hay dos tipos de editores XML: 
»» Los que representan el archivo XML en forma de árbol, y permiten cons- 
truir el documento trabajando sobre este árbol, y formularios adicionales. 
Algunos editores de este tipo son: 
»»» XML Notepad: Desarrollado por Microsoft y para su utilización es 
necesario tener instalado, como mínimo, la versión 4.01 del Explorer, aun- 
que solo se podrá aprovechar en su totalidad con la versión 5. 
»»» Visual XML: Escrito en Java con JFC (Swing). Su autor es Pierre Morel. 


»» Los que presentan el documento XML en su formato original. Es de- 
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dan manipular y trabajar con documentos XML. 


» Actualmente hay muchos y para todos los lenguajes y plataformas: Java, C, 
Phyton, Visual Basic, Perl, Tel, Delphi, etc., aunque los parsers en Java son la 
mayoría. Y es que Java y XML son la pareja perfecta al complementarse muy 
bien. El XML contribuye con datos independientes de la plataforma (docu- 
mentos y datos portables). Java contribuye con el procesamiento independien- 
te de la plataforma (soluciones de software portátiles orientadas a objetos). 
Como dijo Jon Bosak ' en su conocido artículo, XML, Java y el futuro de la 
web: "XML dará trabajo a Java". 


» Todas las grandes compañías ya han elaborado sus propios procesadores 
de XML, y existen muchos más completamente gratis. La utilización de uno u 
otro dependerá de nuestras necesidades, aunque es importante que siem- 


Las herramientas y aplicaciones que son necesarias para poder trabajar con los ejemplos de esta guía son:. 


Un parser o procesador de XMIL es la herramienta principal de cualquier aplicación XML. Mediante este parser, no solo se puede comprobar si 
los documentos están bien formados y son válidos, sino que pueden además ser incorporados a las aplicaciones de manera que estas pue- 





















que con él se pueden definir los diferentes tipos de documen- 
tos y etiquetas, y, por tanto, ya no se dependerá de un único e in- 
flexible tipo de documento HTML. 


» El XML, más que un 
HTML++, hay que consi- 
derarlo como un SGML 
optimizado para su utiliza- 
ción en Internet. Como es- 
cribió Richard Ligth en su 
libro Presenting XML, 
"XML ofrece el 80% de las 
ventajas del SGML con un | 

2071 de su copla dd ——_————__—__—  _——_——_———= 
Y es que los diseñadores de XML intentaron dejar fuera solo aquellas partes que 
raramente se utilizan. Esta reducción resultó ser muy importante: la especifi- 
cación XML ocupa aproximadamente 30 páginas, frente a las 500 del SGML. 
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cir, editores normales de archivos de texto, pero con facilidades de edición 
enfocadas al XML. Algunos de ellos son: 
»»» XED: Desarrollado por Henry Thompson. Permite garantizar que el 
autor no va a escribir documentos que no estén bien formados, y puede 
leer la DTD para sugerir la introducción de elementos validos. 
»»-» PSGML para Emacs: Es un modo superior de Emacs para trabajar 
con SGML que se ha modificado para soportar XML. Lee DTD, puede uti- 
lizar un analizador externo para validar documentos, chequear la sintaxis, 
entre otras funciones. 


En ambos tipos hay que diferenciar los que trabajan contra una DTD y, por 
lo tanto, validan el contenido de lo que se escribe; y los que simplemente ase- 
guran que el documento XML está bien formado. Es decir, con la sintaxis co- 
rrecta respecto de las especificaciones del XML. 

La elección de uno u otro dependerá del tipo de documento que se esté es- 
cribiendo. Si se quiere escribir un documento XML que permita la introduc- 
ción de datos, será preferible uno del primer tipo. Si se quiere escribir un do- 
cumento con gran cantidad de texto (por ejemplo un manual), es preferible 
utilizar uno del segundo tipo. En cualquiera de los dos casos es recomenda- 
ble que permita trabajar sobre una DTD. 









pre se tenga en cuenta la diferencia entre los que simplemente comprueban 
que el documento está bien formado, o el que valida respecto de un DTD. 


»- Si se posee una buena conexión a Internet, también pueden resultar útiles 

las siguientes direcciones, desde las que se puede validar un documento XML. 
» > RUWF (http://www.xml.com/xml/pub/tools/ruwf/check.html), desde la 
cual se puede comprobar que un documento XML están bien formado. 
Simplemente hay que introducir la URL del documento XML. 
»» STG (http://wwwstg.brown.edu/service/xmlvalid/), desde donde se puede 
comprobar que un documento XML es válido. Se puede introducir la URL, 
escribirlo en la caja de texto de un formulario, o subir un archivo (upload) 
desde el disco duro. 








En una DTD se define cómo es la estructura de un documento XML; es de- 
cir, los elementos que formarán ese tipo de documento, y cómo están rela- 
cionados. Al contrario que en SGML, no son obligatorias en XML, aunque 
si es recomendable utilizarlas, al menos durante el periodo de diseño y vali- 
dación de los documentos. 

Para empezar, se puede utilizar un editor de textos habitual. Sin embargo, al- 
gunos específicos son: 


EZDTD: Además de permitir crear DTD de forma visual, tiene dos funcio- 
nalidades muy interesantes, como son el permitir guardar la DTD diferencian- 
do si va a ser para documentos XML o SGML, y el permitir guardar la DTD en 


formato HTML, colocando enlaces de forma automática entre 
los elementos que define. 


TDTD para Emacs: Es un modo superior de Emacs para la edición 
de DTD. Chequea sintaxis, e incluye algunas macros que facilitan la edi- 
ción de construcciones comunes. 
También son interesantes las aplicaciones que dado un documento XML ge- 
neran una DTD, como es el caso de: 


DTDGenerator: Desde su web se puede subir un archivo XML, del cual 
generará una DTD. 


EMPEZANDO A TRABAJAR CON KML 


Se va a estudiar con más detalle la sintaxis y los elementos que forman un 
documento XML, y cómo se puede construir y comprobar que es correcto. Por 
ejemplo, el siguiente código.es un ejemplo de documento XML con DTD in- 
corporada: 


Para cualquier persona que esté familiarizada con el HTML, esta sintaxis le 
resultará conocida, aunque a simple vista se pueden observar algunas diferen- 
cias importantes: 

Utilizo mis propias etiquetas: 





NS que en XML no trabaja con 
- etiquetas predefinidas. Puede 
e crear su propio lenguaje de etl- 
> quetas en función de sus necesi- 

dades. 
La sintaxis es estricta: No se 
puede dejar de entrecomillar los 
- atributos, o utilizar las mayúscu- 
las y minúsculas sin ningún con- 
trol. La especificación XML deter- 
mina claramente una serie de 


aaa a 
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acar importancia="1">documento XML</destacar> 





<p>Comlenza con la etiqueta <documento></p> 

<p>A continuacion colocamos un elemento sin contenido</p> 
<imagen ficheroimagen.gif" /> 

<p>Y ahora una etiqueta CDATA.</p> 





Aquí puedo poner lo que quiera. 








reglas que especifican cuando un 





documento está bien formado. 

La utilización de una DTD: En HTML, a pesar de ser una aplicación SGML, 
no era obligatorio utilizarlas y aunque para trabajar con XML tampoco se- 
rá necesario, sí es recomendable. Posiblemente no acompañen al documen- 
to XML en su distribución, pero resultan muy útiles en la elaboración y va- 
lidación de los documentos. 

Los elementos vacíos: Son los elementos del tipo <img>, <hr>, etc. de 
HTML, en los que no existe etiqueta final al no tener contenido. Ahora, en 
el XML, la propia etiqueta de inicio llevará una contrabarra al final, que los 
identificará. 


Un documento XML es simplemente un conjunto de cadenas de caracte- 
res ?!, en el que, al igual que en el HTML, se pueden diferenciar dos tipos 
de construcciones: el marcado y los datos de caracter. 

El texto incluido entre los caracteres menor que "<" y mayor que ">", o en- 
tre los signos "8." y ";", es el marcado. Son exactamente las partes del do- 
cumento que tiene que entender el procesador de XML. El marcado entre los 
signos "<" y ">" se denominan etiqueta. El resto no son más que datos de 
caracter, que se corresponde con lo que sería el contenido del documento: 
es decir, la parte imprimible de éste. 


Como se puede observar, todo documento XML se com- 
pone de uno o más elementos, cuyos límites están delimitados por eti- 
quetas de comienzo y etiquetas de fin, en el caso de que tengan conteni- 
do (<p>Mi Primer <destacar importancia="1">documento XML</desta- 
car></p>), y por una etiqueta de elemento vacío en el caso de ser ele- 
mentos sin contenido (<imagen fichero="imagen.gif"/>). 

Cada elemento puede contener datos de caracter, elementos, ambas co- 
sas a la vez, o puede que estén vacíos. 
En el ejemplo, el elemento "documento" está formado por otros elemen- 
tos: "p", "imagen” y "ejemplo". El elemento "p" está formado por un 
contenido mixto: el elemento "destacar" y datos de carácter. El elemento 
"imagen" no tiene ningún contenido. 


En el caso de elementos con con- 
tenido, las etiquetas de comienzo 
se componen del símbolo menor 
que "<", el nombre del tipo de ele- 
mento, los atributos si los tiene, y - 
el simbolo mayor que ">". Mien- 
tras que las etiquetas de in se com- 
ponen del símbolo menor que dd de contrabarra “y, el a del 
tipo del elemento y el simbolo mayor que ">". 


Elemento 
con contenido 


Contenido 






Nom. Elemento atributos? 
elementos 
texto 
mixto 


En el caso de ser un elemento vacío, solo hay una etiqueta de elemento va- 
cío que se forma del símbolo menor que "<", el nombre del tipo de ele- 









lom. elemento 





mento, los atributos si los tiene, 
y se cierra con el símbolo "/>". 
Es importante destacar este ti- 
po de elementos, ya que hasta 
ahora en el SGML y, por tanto 
en el HTML, entendido como 
aplicación SGML; los elementos 
vacíos solo se representaban 
con una etiqueta de inicio. 


o Cada elemento puede tener atributos (propiedades) que 
ofrecen información sobre el elemento. En el ejemplo, el elemento, "des- 
tacar" va caracterizado con el atributo "importancia", que indicará el 
grado de relevancia de su contenido. El elemento "imagen" con el atribu- 
to "fichero", donde indicará el archivo que contiene la imagen. 


SR AS 
car></p> 


<imagen fichero="imagen.gif"/> 


Como se puede observar, la definición de un atributo está formada por el 
nombre del atributo, seguido del símbolo igual "=" y, entrecomillado, el va- 
lor del atributo. 


o Los documentos XML pueden empezar con un prólogo, en 
el que esencialmente se define, una declaración XML y una declaración 
de tipo de documento 
<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE documento [ 
<!ELEMENT documento (p | imagen | ejemplo)*> 
<!ELEMENT p (++PCDATA|destacar)*> 
<!ELEMENT destacar (+PCDATA)> 
<!ATTLIST destacar 
importancia CDATA +REQUIRED> 
<!ELEMENT imagen EMPTY> 
<!ATTLIST imagen 
fichero CDATA F4REQUIRED> 
A NS 
1> 


En la declaración XML (<?2xml version=" 1.0" encoding="UTF-8"?>) 
se indica, información sobre la versión de XML que se está utilizando, e 
información sobre el tipo de codificación de caracteres que se está usan- 
do. En este caso es el código ASCII de 7 bits, que es un subconjunto del 
código Unicode denominado UTF-8. No hubiese sido necesario decla- 
rarlo, ya que es el que los parsers manejan por defecto. 
- En la declaración del tipo de documento: 
<!DOCTYPE documento [ 
<!ELEMENT documento (p | imagen | ejemplo)*> 
<!ELEMENT p (+PCDATA|destacar)*> 
<!ELEMENT destacar (++PCDATA)> 
<!ATTLIST destacar 

importancia CDATA +REQUIRED> 
<!ELEMENT imagen EMPTY> 
<!ATTLIST imagen 

fichero CDATA HREQUIRED> 
<!ELEMENT ejemplo (+PCDATA)> 
l> 


Se asocia el DTD respecto de la cual se construye el documento. En el ejem- 
plo va implícita en el propio documento XML, aunque también puede ha- 
cerse externa al documento, e incluso de una forma mixta. Si se hubiese 


escrito en un archivo "ejemplo.dtd", se indicaría de la si- 

guiente manera: <!DOCTYPE documento SYSTEM "ejem- 
plo.dtd*>. Aunque cabe recordar que a diferencia del SGML, se 
tiene la posibilidad*de no utilizarla. Ambas partes del prólogo son 
opcionales, aunque en el caso de incluir ambas, la declaración XML tie- 
ne que ir antes. 


o Mediante los cuales se proporciona información que 
el parser no tendrá en cuenta. 
SAO 


Los comentarios empiezan con los caracteres "<!--" y terminan con "-->", 
y pueden colocarse en cualquier sitio excepto dentro de las declaraciones, 
etiquetas y otros comentarios. 


co Permiten integrar texto en un documento XML, que de 
otra forma sería interpretado como etiquetas. Es decir, se introduce tex- 
to que luego el procesador XML va a mostrar, pero no va a procesar co- 
mo marcado. 
<![CDATA[ 

Aquí puedo poner lo que quiera. 


11> 


Los CDATA empiezan con los caracteres "<![CDATA[” y termina con "]]>". 
Dentro de ellos se puede colocar cualquier cosa, ya que no va a ser inter- 
pretado, con la salvedad de la cadena que indica el final de CDATA, "]]>". 


o En XML existen algunos caracteres reserva- 
dos que no se pueden utilizar para evitar problemas con el marcado. Las 
entidades predefinidas son marcas XML que se utilizan para representar es- 
tos caracteres. El XML especifica cinco entidades predefinidas: 

Stamp; para el € 

8d t; para el < 

Sgt; para el > 

- 8lapos; para el ' 

-8:quot; para el " 


» Documentos bien formados y documentos válidos: 
comentado, no es necesario que un documento XML esté asociado a una 
DTD. El documento XML expresado al inicio de esta ficha se podría haber 
escrito de la siguiente manera, y si se pasa por un parser de XML no daría 
ningún error: 
<?xml version="1.0" encoding="UTF-8"?> 
<!-- Esto es un comentario --> 
<documento> 
<p>MIi Primer <destacar importancia="1">documento XML</desta- 
car></p> 
<p>Comienza con la etiqueta 8dt;documento3:gt;</p> 
<p>A continuacion colocamos un elemento sin contenido</p> 
<imagen fichero="imagen.gif"/> 
<p>Y ahora una etiqueta CDATA.</p> 
<ejemplo> 
<![CDATA[ 

Aqui puedo poner lo que quiera. 
11> 
</ejemplo> 
</documento> 


Por tanto, en función de si lleva asociada una DTD o no, se puede diferen- 
ciar dos tipos de documentos XML: Válidos (aquellos que siguen las reglas de 
una DTD especifica), y bien formados (well-formed, que no tienen necesa- 
rlamente una DTD asociada, pero siguen las reglas del XML al pie de la le- 
tra). Evidentemente, los documentos válidos son bien formados. 





>>» DOCUMENTOS AML BIEN FORMADOS 









» Se ha visto de forma superficial que una de las características que diferen- 
cian al XML del SGML es la posibilidad de no utilizar DTD. Sin embargo, en 
una DTD se define cómo va a ser un tipo de documento (los elementos, atri- 
butos y entidades que lo van a formar, cómo se estructuran y relacionan). 
Por tanto, si en la elaboración de un documento XML no se utiliza una DTD, 
el parser no puede proporcionar información sobre la validez de ese docu- 
mento; es decir, no nos puede indicar que los elementos y atributos que se 
utilizan son los correctos y que se encuentran en el orden adecuado. Sim- 
plemente indicará si ese documento está bien formado; es decir, si respeta 
las reglas sintácticas del lenguaje XML. 

Según la especificación, un objeto de texto es un documento XML bien for- 
mado si: 

»» Tomado como un todo, cumple la regla denominada "document". 
»» Respeta todas las restricciones de buena formación dadas en la espe- 
cificación. 

»»- Cada una de las entidades analizadas que se referencia directa o in- 
directamente en el documento está bien formada. 


» La regla "document": Cumplir la regla "document" significa: 
»» Que contiene uno o más elementos. 
»»- Hay exactamente un elemento, llamado raíz, o elemento documento, 
del cual ninguna parte aparece en el contenido de ningún otro elemento. 
» » Para el resto de elementos, si la etiqueta de comienzo está en el 
contenido de algún otro elemento, la etiqueta de fin está en el conteni- 
do del mismo elemento. Es decir, los elementos delimitados por etique- 
tas de principio y final, se anidan adecuada y mutuamente. 

El siguiente ejemplo no es un documento XML bien formado: 

Mii primer documento XML 


ya que no contiene ningún elemento y, por tanto, está incumpliendo la re- 
gla número 1. 
En cambio: 

<p>Mi primer documento XML</p> 


Sí lo es, al contener al menos el elemento "p”. La principal razón por la que 
el procesador comprueba los elementos es para determinar si el documen- 
to tiene estructura de datos que pueda extraer. Un documento que carece 
de elementos no tiene estructura de datos. Un documento con al menos un 
elemento tiene estructura de datos. 
En cambio: 

<p>MIi primer documento XML</p> 

<p>MIi primer documento XML</p> 


No es un documento XML bien formado al incumplir la regla número 2, 
según la cual solo puede existir un único elemento raíz. 
Aunque escrito de la siguiente manera si que es correcto: 
<documento> 
<p>Mi primer documento XML</p> 
<p>MIi primer documento XML</p> 
</documento> 


Al convertirse el elemento "documento" en el elemento raíz, ser único, y no 
formar parte del contenido de ningún otro elemento. 
En cambio, el siguiente ejemplo: 
<documento> 
<p>Mi primer <destacar>documento XML</p 
></destacar> 
<p>MIi primer documento XMIL</p> 
</documento> 


Es incorrecto al incumplir la regla 3, ya que la etiqueta inicio del elemento 
"destacar" está dentro del contenido del elemento "p", pero su etiqueta fi- 
nal está fuera. 

La forma correcta sería la siguiente: 

<documento> 






<p>MIi primer <destacar>documento 
XML </destacar></p> 

<p>Mi primer documento XML</p> 
</documento> 








» Sintaxis correcta y restricciones de buena formación: Además de 
las reglas anteriormente mencionadas, para escribir documentos XML bien 
formados hay que conocer perfectamente la sintaxis del lenguaje XML, y al- 
gunas restricciones que la especificación impone. Algunas de estas reglas ya 
se han visto anteriormente: cómo se escriben las etiquetas de inicio y final, 
cómo se escriben las etiquetas de elementos vacíos, cómo se escriben los 
atributos, etc., y es evidente que si se siguen estas reglas, el parser dará error. 
En el siguiente ejemplo se presentan cuatro errores: 
<?xml version="1.0"?> 
<documento> 
<p>Mi Primer <destacar importancia=1>documento 
XML 
</destacar></p] 
<p>Comienza con la etiqueta <documentog:gt;</p> 
<p>A continuacion colocamos un elemento sin conteni 
do</p> 
<imagen fichero="imagen.gif"> 
</documento> 


»» El valor del atributo "importancia", no está entrecomillado. En HTML 
es posible no entrecomillar el valor de los atributos, pero en XML es obli- 
gatorio. Se debería haber escrito: ...<destacar importancia="1">docu- 
mento XML</destacar>... 

»» La etiqueta final, del elemento "p" está mal cerrada. En lugar del 
carácter "]" , se debería poner el símbolo mayor que ">". <p>Mi Pri- 
mer <destacar importancia=1>documento XML</destacar></p> 





| The XML page cannot be displayed 
Cannot vien XML isput using XSL style sheet. Please correct the error and then click the 
Bafcash button, or try again later, 


expected, opening quote character was found. Error 
resource 'file:/ / /C:/Documents añ... 


A string literal was , but no 
processing 





»» Se está utilizando el simbolo menor que "<" sin que forme parte de 
la definición de una etiqueta. Al ser un carácter reservado, habría que es- 
cribirlo como la entidad predefinida 8t;. <p>Comienza con la etiqueta 
8ltidocumentog:gt;</p> 

»» Se está escribiendo el elemento vacío "imagen" de forma incorrecta. 
Al ser un elemento sin contenido, habría que haberlo escrito con una eti- 
queta de elemento vacío: <imagen fichero="imagen.gif"/>. O también 
de la siguiente manera: <imagen fichero="imagen.gif"></imagen> 





J| Cannot vier XML input using XSL style sheet. Please correct the error and then click the 
¡| Refresh button, or try again later. 


string literal was expected, but no opening quote character was found. Error 
rocessing resource "file:/ //C:/Documents an... 




























DOCUMENTOS XAML BIEN FORMADOS 
El ejemplo anterior bien escrito sería: 
<?xml version="1.0"?> 
<documento> 
<p>Mi Primer <destacar importancia="1">documento XML</desta- 
car></p> 
<p>Comienza con la etiqueta 8tidocumento8:gt;</p> 
<p>A continuacion colocamos un elemento sin contenido</p> 
<imagen fichero="imagen.gif"/> 
</documento> 


Otras reglas que se deben tener en cuenta son: 
El XML es sensible a la utilización de mayúsculas y minúsculas. En el 
siguiente ejemplo: 
<p>MIi primer documento XMIL</p> 
<P>MIi primer documento XML</P> 


Los elementos "p" y "P" son diferentes. Hay que tener mucho cuidado con 
esta regla, ya que es habitual su incumplimiento, y suele ser la causa de la 
mayor parte de los errores. Es recomendable establecer un criterio al respec- 





to, antes de empezar a escribir un documento. 

El nombre de la etiqueta de inicio y final debe ser el mismo. El 

siguiente ejemplo es incorrecto: <p>Mi primer documento XML</P>, 

ya que al hacer diferencia entre mayúsculas y minúsculas, el parser 

no entiende ambas etiquetas como del mismo elemento. 

Ningún nombre de atributo puede aparecer más de una vez en la misma eti- 
queta de inicio, o de elemento vacío. El siguiente ejemplo es incorrecto: 
...<destacar importancia="1" importancia="2">documento XML</des- 
tacar>... 


Las entidades: Todavía no se ha hablado mucho de las entidades pero, 
como se verá, resultan muy importantes en la elaboración y mantenimiento 
eficiente de documentos XML. Una de sus funcionalidades es la de permitir 
elaborar un documento XML en "trozos"; es decir, se tendrá un único docu- 
mento XML, pero éste físicamente se encontrará dividido en varios archivos. 

No se va a profundizar más en este aspecto, pero lo que hay que tener en cuen- 
ta es que para el parser se trata de un único documento XML y que, por tan- 
to, sus diferentes partes, aún encontrándose en archivos diferentes, deben ve- 
rificar las reglas de buena formación descritas anteriormente. 


Un "schema XML" es algo similar a un DTD; es decir, define qué ele- 
mentos puede contener un documento XML, cómo están organizados, que 
atributos y de qué tipo pueden ser sus elementos. La ventaja de los sche- 
mas con respecto a los DTD son: 

Usan sintaxis de XML, al contrario que los DTD. 
Permiten especificar los tipos de datos. 
Son extensibles. 


Por ejemplo, un schema permite definir el tipo del contenido de un ele- 
mento o de un atributo, y especificar si debe ser un número entero, o 
una cadena de texto, o una fecha, etc. Los DTD no permiten hacer estas 
Cosas. 

Veamos un ejemplo de un documento XML, y su schema correspondiente: 


Como podemos ver en el documento XML anterior, se hace referencia a 
un espacio de nombres (namespace) llamado "x-schema:personaSchema.xml". 
Es decir, le estamos diciendo al analizador sintáctico XML (parser) que valide 
el documento contra el schema "personaSchema.xml". 

El schema sería algo parecido a esto: 


El primer elemento del schema define dos espacios de nombre. El prime- 
ro, "xml-data”, le dice al analizador que esto es un schema, y no otro docu- 
mento XML cualquiera. El segundo, "datatypes", permite definir el tipo de 
elementos y atributos utilizando el prefijo "dt". 


ElementlType: Define el tipo y contenido de un elemento, incluyendo los 
sub-elementos que pueda contener. 

AttributeType: Asigna un tipo y condiciones a un atributo. 

attribute: Declara que un atributo previamente definido por AttributeTy- 
pe, puede aparecer como atributo de un elemento determinado. 

element: Declara que un elemento previamente definido por ElementTy- 
pe puede aparecer como contenido de otro elemento. 


Tal como hemos visto, es necesario empezar el schema definiendo los ele- 
mentos más profundamente anidados dentro de la estructura jerárquica 
de elementos del documento XML. Es decir, tenemos que trabajar "de den- 
tro hacia fuera”. 


Visto de otra manera, las declaraciones de tipo ElementType y AttributeTy- 
pe deben preceder a las declaraciones de contenido element y attribute 
correspondientes. 


ANOTACIONES b 


5 Jon Bosak es el padre del XML. No solo fue el que tuvo las ideas originales 
y seleccionó el equipo de trabajo, sino que organiza y dirige actualmente el 
grupo de trabajo de XML del W3C. Sin Bosak, el XML no hubiera existido. 

1 Procedentes del conjunto de caracteres Unicode. Es el juego internacio- 


nal de caracteres estándar y que utiliza códigos de 16 bits. De esta forma 
es posible disponer de una tabla con 65.535 símbolos disponibles, lo que 
permite acomodar juegos de caracteres de las diversas lenguas sin mayo- 
res problemas. 





